表结构识别是文档图像分析域的关键部分。它的困难在于需要同时解析每个单元的物理坐标和逻辑指标。但是,现有的方法很难实现这两个目标,尤其是当表分裂线被模糊或倾斜时。在本文中,我们提出了一种基于端到端变压器的表面结构识别方法,称为信任。变压器由于其全局计算,完美的内存和并行计算而适合表结构识别。通过引入基于新型变压器基于查询的新型分裂模块和基于顶点的合并模块,表结构识别问题被脱钩到两个关节优化子任务中:多面向的表行/列分拆分和表格格里合并。基于查询的拆分模块通过变压器网络从长期依赖项中学习了强烈的上下文信息,准确预测了多个面向的表行/列分离器,并相应地获得了表的基本网格。基于顶点的合并模块能够在相邻的基本网格之间汇总局部上下文信息,从而能够合并准确属于同一跨越单元的基本束。我们对包括PubTabnet和Connthtable在内的几个流行基准进行实验,我们的方法实现了新的最新结果。特别是,信任在PubTabnet上以10 fps的速度运行,超过了先前的方法。
translated by 谷歌翻译
对话场景是语音处理技术最重要,最具挑战性的场景之一,因为对话中的人们以随意的方式相互反应。在对话中检测每个人的语音活动对于下游任务,例如自然语言处理,机器翻译等。人们指的是“何时说话”作为说话者诊断(SD)的检测技术。传统上,诊断错误率(DER)长期以来一直用作SD系统的标准评估度量。但是,der没有给简短的对话短语提供足够的重视,这在语义层面上很重要。此外,在语音社区中,仍然无法使用精心准确的手动测试数据集,适合评估对话性SD技术。在本文中,我们设计和描述了对话式短语扬声器诊断(CSSD)任务,该任务包括培训和测试数据集,评估指标和基线。在数据集方面,尽管先前开源的180小时对话魔术Data-RAMC数据集,但我们还准备了一个20小时的对话演讲测试数据集,并精心验证了CSSD任务的时间戳注释。在度量方面,我们设计了新的对话der(CDER)评估度量,该评估度量计算出语音级别的SD准确性。在基线方面,我们采用了一种常用的方法:变异贝叶斯HMM X-vector系统,作为CSSD任务的基线。我们的评估指标可在https://github.com/speechclub/cder_metric上公开获得。
translated by 谷歌翻译
典型的文本检测器遵循两阶段的发现策略:首先检测文本实例的精确边界,然后在定期的文本区域内执行文本识别。尽管这种策略取得了实质性进展,但有两个基本的局限性。 1)文本识别的性能在很大程度上取决于文本检测的精度,从而导致从检测到识别的潜在误差传播。 2)桥接检测和识别的ROI种植会带来背景的噪音,并在合并或从特征地图中插值时导致信息丢失。在这项工作中,我们提出了单个镜头自力更生的场景文本sottter(SRSTS),该场景通过将识别解除识别来规避这些限制。具体而言,我们并行进行文本检测和识别,并通过共享的积极锚点架起它们。因此,即使确切的文本边界要检测到具有挑战性,我们的方法也能够正确识别文本实例。此外,我们的方法可大大降低文本检测的注释成本。在常规基准和任意形状的基准上进行了广泛的实验表明,就准确性和效率而言,我们的SRST与以前的最先进的观察者相比有利。
translated by 谷歌翻译
由于训练和测试分布之间的不匹配,自动语音识别(ASR)的跨域性能可能会受到严重阻碍。由于目标域通常缺乏标记的数据,并且在声学和语言水平上存在域移位,因此对ASR进行无监督的域适应性(UDA)是一项挑战。先前的工作表明,通过利用未标记的数据的自我检查,自我监督的学习(SSL)或伪标记(PL)可以有效地进行UDA。但是,这些自我介绍也面临不匹配的域分布中的性能退化,而以前的工作未能解决。这项工作提出了一个系统的UDA框架,可以在预训练和微调范式中充分利用具有自学贴标签的未标记数据。一方面,我们应用持续的预训练和数据重播技术来减轻SSL预训练模型的域不匹配。另一方面,我们提出了一种基于PL技术的域自适应微调方法,并具有三种独特的修改:首先,我们设计了一种双分支PL方法,以降低对错误的伪标签的敏感性;其次,我们设计了一种不确定性感知的置信度过滤策略,以提高伪标签的正确性。第三,我们引入了两步PL方法,以结合目标域语言知识,从而产生更准确的目标域伪标记。各种跨域场景的实验结果表明,所提出的方法可以有效地提高跨域的性能,并显着超过以前的方法。
translated by 谷歌翻译
具有联合学习(FL)的自动语音识别(ASR)使得在不损害隐私的情况下利用来自多个客户的数据。基于FL的ASR质量可以通过识别性能,沟通和计算成本来衡量。当不同客户之间的数据不是独立且分布相同的(非IID)时,性能可能会大大降低。在这项工作中,我们使用个性化的FL解决了基于FL的ASR中的非IID问题,该问题为每个客户学习个性化模型。具体而言,我们提出了两种类型的ASR个性化FL方法。首先,我们将基于个性化的FL适应ASR,该层在本地保留一些层以学习个性化模型。其次,为了降低沟通和计算成本,我们提出了脱钩的联合学习(Decouplefl)。一方面,DeCoupleFL将计算负担移至服务器,从而减少了客户端的计算。另一方面,Decouplefl传达安全的高级功能而不是模型参数,从而在模型大时降低通信成本。实验表明,与FedAvg相比,两种提出的基于FL的ASR方法可以将WER降低2.3%-3.4%。其中,与FedAvg相比,Decouplefl仅具有11.4%的通信和75%的计算成本,这也明显少于基于个性化的FL。
translated by 谷歌翻译
自我监督的声学预培训已经在自动语音识别(ASR)任务上取得了惊人的结果。大多数成功的声学预训练方法使用对比学习来通过区分不同时间步长的表示来学习声学表示,忽略扬声器和环境鲁棒性。因此,在微调期间,预先训练的模型可以表现出域名数据的性能不佳。在这封信中,我们通过利用用于声学预训练的数据增强来设计一种新的一致性对比学习(CCL)方法。在原始音频上应用不同类型的增强,然后将增强的Audios馈入编码器。编码器不仅应将表示在一个音频中的表示相反,而且还可以最大限度地提高不同增强音频的表示的测量。通过这种方式,预先训练的模型可以学习与扬声器或环境的变化更加强大的文本相关的表示方法。实验表明,通过在WAV2VEC2.0上应用CCL方法,可以实现更好的结果都在域内数据和域外数据。特别是对于嘈杂的域名数据,可以获得超过15%的相对改进。
translated by 谷歌翻译
自我监督的预训练可以有效地改善低资源自动语音识别(ASR)的性能。但是,现有的自我监督的预训练是任务不合时宜的,即可以应用于各种下游任务。尽管它扩大了其应用的范围,但预训练模型的容量并未完全用于ASR任务,并且学习的表示形式可能对ASR不最佳。在这项工作中,为了为低资源ASR构建更好的预训练模型,我们提出了一种称为WAV2VEC-S的预训练方法,我们使用特定于任务的半监督预培训来完善自我监督的预培训因此,ASR任务的预训练模型更有效地利用了预培训模型的能力来生成针对ASR的任务特定表示。实验表明,与WAV2VEC 2.0相比,WAV2VEC-S仅需要训练前时间的边际增长,但可以显着改善在内域,跨域和跨语言数据集上的ASR性能。 1H和10H微调分别为24.5%和6.6%。此外,我们表明,半监督的预训练可以通过规范相关分析来弥合自我监管的预训练模型与相应的微调模型之间的表示差距。
translated by 谷歌翻译
Estimating the 6D pose of objects is one of the major fields in 3D computer vision. Since the promising outcomes from instance-level pose estimation, the research trends are heading towards category-level pose estimation for more practical application scenarios. However, unlike well-established instance-level pose datasets, available category-level datasets lack annotation quality and provided pose quantity. We propose the new category level 6D pose dataset HouseCat6D featuring 1) Multi-modality of Polarimetric RGB+P and Depth, 2) Highly diverse 194 objects of 10 household object categories including 2 photometrically challenging categories, 3) High-quality pose annotation with an error range of only 1.35 mm to 1.74 mm, 4) 41 large scale scenes with extensive viewpoint coverage, 5) Checkerboard-free environment throughout the entire scene. We also provide benchmark results of state-of-the-art category-level pose estimation networks.
translated by 谷歌翻译
In recent years, applying deep learning (DL) to assess structural damages has gained growing popularity in vision-based structural health monitoring (SHM). However, both data deficiency and class-imbalance hinder the wide adoption of DL in practical applications of SHM. Common mitigation strategies include transfer learning, over-sampling, and under-sampling, yet these ad-hoc methods only provide limited performance boost that varies from one case to another. In this work, we introduce one variant of the Generative Adversarial Network (GAN), named the balanced semi-supervised GAN (BSS-GAN). It adopts the semi-supervised learning concept and applies balanced-batch sampling in training to resolve low-data and imbalanced-class problems. A series of computer experiments on concrete cracking and spalling classification were conducted under the low-data imbalanced-class regime with limited computing power. The results show that the BSS-GAN is able to achieve better damage detection in terms of recall and $F_\beta$ score than other conventional methods, indicating its state-of-the-art performance.
translated by 谷歌翻译
快速扩大的神经网络模型在单个设备上运行越来越具有挑战性。因此,在多个设备上的模型并行性对于确保训练大型模型的效率至关重要。最近的建议在长时间处理时间或性能差。因此,我们提出了Celeritas,这是一个快速的框架,用于优化大型型号的设备放置。Celeritas在标准评估中采用简单但有效的模型并行化策略,并通过一系列调度算法生成位置策略。我们进行实验以在许多大型模型上部署和评估Celeritas。结果表明,与大多数高级方法相比,Celeritas不仅将放置策略生成时间减少26.4 \%,而且还将模型运行时间提高了34.2 \%。
translated by 谷歌翻译